Descripción y Evaluación de un Sistema de Extracción de Definiciones para el Catalán
نویسندگان
چکیده
Automatic Definition Extraction (DE) consists of identifying definitions in naturally-occurring text. This paper presents a method for the identification of definitions in Catalan in the encyclopedic domain. The train and test corpora come from the Catalan Wikipedia (Viquipèdia). The test set has been manually validated. We approach the task as a supervised classification problem, using the Conditional Random Fields algorithm. In addition to the common linguistic features, we introduce features that exploit the frequency of a word in general and specific domains, in definitional and non-definitional sentences, and in definiendum (term to be defined) and definiens (cluster of words that defines the definiendum) position. We obtain promising results that suggest that combining linguistic and statistical features can prove useful for developing DE systems for under-resourced languages.
منابع مشابه
Extracción automática de contextos definitorios en textos especializados
Uno de los problemas recurrentes de cualquier área de conocimiento es la organización y explicación de los términos que incluye en su campo de estudio. El reciente avance en el desarrollo de nuevas tecnologías para el trabajo terminológico ha aportado diversas herramientas para tratar de resolver este problema. Una de estas herramientas son los corpus de textos especializados en los cuales se p...
متن کاملExtracción de contextos definitorios en textos de especialidad a partir del reconocimiento de patrones lingüísticos
La extracción automática de definiciones a partir de textos de especialidad es una tarea cada vez más demandante para diferentes aplicaciones del Procesamiento de Lenguaje Natural, tales como lexicografía computacional, extracción de información, semántica computacional, sistemas preguntarespuesta, minería de textos, Web semántica y aprendizaje automático. Este artículo presenta un panorama de ...
متن کاملGra2MoL: Una Herramienta para la Extracción deModelos en Modernización de Software
La Modernización Dirigida por Modelos ha emergido recientemente como una nueva área dedicada a la automatización basada en modelos de procesos de modernización o evolución de software. Aśı, el OMG ha propuesto varios estándares de modernización dentro de la iniciativa ADM [1], como KDM [2]. En los próximos años será necesario un gran esfuerzo para encontrar técnicas y métodos para esta nueva ár...
متن کاملAvivavoz: Tecnologías Para La Traducción De Voz
AVIVAVOZ es un proyecto de tres años dirigido a la investigación avanzada en todas las tecnologías clave que intervienen en un sistema de traducción de voz (reconocimiento, traducción y síntesis de voz). El objetivo del proyecto es lograr avances reales en todos los componentes de un sistema de traducción de voz para alcanzar sistemas de intermediación oral entre personas en las lenguas oficial...
متن کاملMedidas de Complejidad Cuantitativas para Sistemas Expertos Basados en Reglas
La evaluación de un Sistema Basado en Conocimiento es una fase del ciclo de desarrollo en este paradigma que comúnmente busca que el sistema tenga una sintaxis correcta, una semántica válida y que el grado de usabilidad y utilidad sea alto. Sin embargo, en esta etapa no se hace una valoración de la organización que tiene la Base de Conocimiento, lo cual pudiera repercutir en la eficiencia de la...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- Procesamiento del Lenguaje Natural
دوره 53 شماره
صفحات -
تاریخ انتشار 2014